语言模型预训练的最新进展利用大规模数据集创建多语言模型。但是,这些数据集中大多遗漏了低资源语言。这主要是因为网络上没有很好地表示口语,因此被排除在用于创建数据集的大规模爬网中。此外,这些模型的下游用户仅限于最初选择用于预训练的语言的选择。这项工作调查了如何最佳利用现有的预培训模型来为16种非洲语言创建低资源翻译系统。我们关注两个问题:1)如何将预训练的模型用于初始预培训中未包含的语言? 2)生成的翻译模型如何有效地转移到新域?为了回答这些问题,我们创建了一个新的非洲新闻语料库,涵盖16种语言,其中8种语言不属于任何现有评估数据集的一部分。我们证明,将两种语言转移到其他语言和其他领域的最有效策略是,以少量的高质量翻译数据微调大型预训练模型。
translated by 谷歌翻译
情感分析是NLP中研究最广泛的应用程序之一,但大多数工作都集中在具有大量数据的语言上。我们介绍了尼日利亚的四种口语最广泛的语言(Hausa,Igbo,Nigerian-Pidgin和Yor \'ub \'a)的第一个大规模的人类通知的Twitter情感数据集,该数据集由大约30,000个注释的推文组成(以及每种语言的大约30,000个)(以及14,000尼日利亚猎人),其中包括大量的代码混合推文。我们提出了文本收集,过滤,处理和标记方法,使我们能够为这些低资源语言创建数据集。我们评估了数据集上的预训练模型和转移策略。我们发现特定于语言的模型和语言适应性芬通常表现最好。我们将数据集,训练的模型,情感词典和代码释放到激励措施中,以代表性不足的语言进行情感分析。
translated by 谷歌翻译
在这个有联系的社会中,CCTV通过记录非法活动以供当局采取行动,在执行公民的安全和保障方面发挥了关键作用。在智能的城市环境中,使用深层卷积神经网络(DCNN)来检测CCTV视频中的暴力和武器暴力行为,将通过确保全天候实时检测来提供额外的安全性。在这项工作中,我们通过收集武器化和非武器暴力以及YouTube的非暴力视频的真正CCTV镜头,引入了一个新的专业数据集。我们还提出了一种新颖的方法,将连续的视频框架合并为单个显着图像,然后将成为DCNN的输入。多个DCNN架构的结果证明了我们方法的有效性99 \%。我们还通过几个参数权衡考虑了我们方法的效率,以确保智能城市的可持续性。
translated by 谷歌翻译